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摘 要 : 近年 来 , 随 着 计算 机 视觉 领域 的 快速 发 展 , 数字 人 的 概念 引起 社会 各 界 的 广泛 关注 , 高 保 真 的 人 体 、 
人 头 和 人 手 的 建 模 都 得 到 了 深入 的 研究 。 本 文 关 注 头 部 建 模 ， 基 于 神经 辐射 场 提 出 一 种 可 泛 化 的 人 头 模型 ， 
结合 人 脸 识别 网 络 和 人 脸 三 维 形变 模型 ， 将 头 部 模型 参数 化 ， 因 此 可 以 直接 控制 生成 图 像 的 身份 和 表情 语义 
属性 ， 并 且 支 持 自由 编辑 图 像 的 泻 染 姿态 。 为 了 提高 神经 辐射 场 的 泻 染 速度 ， 我 们 将 传统 的 体 泻 染 改 为 体 渔 
染 结合 二 维 神 经 演 染 的 方式 , 在 保留 泻 染 图 像 质 量 的 同时 在 TeslaV100 GPU 上 达到 15 帧 / 秒 的 演 染 速度 。 通 
过 采集 大 量 的 头 部 RGB 图 像 数 据 参 与 训练 ， 模 型 可 以 生成 高 保 真 的 泻 染 图 像 ， 并 且 在 测试 集 上 也 有 允 真 的 
拟 合 结果 ， 可 以 泛 化 到 未 曾 参与 训练 的 新 的 身份 和 表情 语义 。 得 益 于 神经 辐射 场 对 三 维 几 何 场景 的 隐 式 表示 
能 力 ， 模 型 的 演 染 结果 具有 多 视角 一 致 性 ， 在 新 视角 合成 、 表 情 迁 移 、 了 驱动 等 方面 有 多 种 用 途 。 
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Abstract: In recent years, with the rapid development of computer vision, the concept of digital human has attracted 
wide attention from all walks of life, and the modeling of high-fidelity human body, head and hand has been deeply 
studied. This paper focus on head modeling and propose a generalized head model based on neural radiance field, 
which is parameterized by face recognition network and 3D face morphable model, therefore, it can directly control 
the semantic attributes such as identity and expression of the generated image, and support freely modifying the 
rendering pose of the image. In order to improve the rendering speed of neural radiance field, this paper use the 
combination of the volume rendering and two-dimensional neural rendering to replace the traditional pure volume 
rendering, which can speed up the rendering process while preserving image quality. The head model can render 
images with the speed of 15 frames per second on the Tesla V100 GPU. By collecting a large amount of head RGB 
images data to participate in training stage, the model can generate high-fidelity rendering images, and also have 
realistic fitting results on the test set, it can be generalized to new identity and expression that have not been trained. 
Thanks to the ability of implicit representation of 3D geometric scene by neural radiance field, the rendering results 
of the model has multi-view consistency, and has many uses such as novel view synthesis, expression transfer, driv- 
ing and so on. 
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三 维 人 脸 / 头 部 表示 是 近年 来 计算 机 视觉 和 计算 VR )、 数 字 游 戏 、 电 影 制作 等 方面 均 有 广泛 应 用 。 如 
机 图 形 学 领域 的 热点 问题 之 一 ， 在 增强 现实 何 高 度 保 真 地 重建 出 视频 或 图 像 中 的 人 头 模型 是 一 个 
( Augmented Reality, AR ) /虚拟 现实 (Virtual Reality， 非常 具有 挑战 性 的 研究 课题 。 


chin 


基于 人 头 模型 可 以 能 入 到 低 维 空间 的 假设 ， 参 数 
化 语义 人 头 模型 如 blendshape， 在 很 长 时 间 内 被 众多 
学 者 加 以 研究 和 改进 。Blendshape 人 头 模型 是 一 个 以 
不 同 面部 表情 的 线性 / 双 线 性 组 合 的 头 部 模型 , 具有 语 
义 参 数 化 性 质 , 用 户 可 以 通过 组 合 系数 决定 面部 表情 。 
同时 ，blendshape 构建 了 一 个 合理 的 形状 空间 ， 帮 助 
用 户 实现 自 定义 的 个 性 化 人 脸 编 辑 。 在 此 基础 上 ， 具 
有 泛 化 性 的 语义 人 头 模型 如 FaceWarehouseD 旨 在 用 
不 同 的 表情 对 不 同 的 对 象 进 行 建 模 ， 但 忽略 了 可 能 存 
在 的 几何 和 纹理 细节 。 为 了 构建 表达 能 力 更 强 的 
blendshape 模型 ， 传 统 的 基于 网 格 的 方法 通常 采用 基 
于 多 线性 张 量 的 三 维 形变 模型 (3D Morphable Model, 
3DMM ) 外 ,但 这 种 建 模 方式 通常 会 忽略 牙 上 从、 头发 
等 非 人 脸 部 分 ， 此 外 ， 由 于 网 格 泻 染 的 分 辩 率 限制 ， 
模型 很 难 表达 出 皱纹 等 高 频 的 细节 信息 ， 且 网 格 演 染 
并 不 可 微 ,要 使 用 RGB 图 像 监 督 训练 必须 采用 近似 可 
微 演 染 技术 来 缓解 不 可 微 问 题 。 

近年 来 ， 随 着 深度 学 习 的 飞速 发 展 ， 二 维 生 成 对 
抗 网 络 ( generative adversarial networks, GANs ) BARE 


够 在 不 需要 三 维 模型 的 情况 下 直接 演 染 高 质量 的 人 脸 


在 密集 多 视角 图 像 的 基础 上 ， 不 同 场景 之 间 无 法 共享 
相同 的 先 验 知识 ， 因 此 每 个 场景 或 对 象 必 须 每 次 单独 
优化 ,不 具有 和 良好 的 泛 化 性 能 。 为 了 解决 这 一 问题 ， 
一 些 学 者 在 NeRF 的 训练 中 引入 局 部 特征 ， 通 过 二 维 
卷 积 神经 网 络 0549 或 者 Transformer 网 络 07 提 取 输 入 
图 像 中 的 特征 信息 ， 作 为 额外 输入 加 入 到 NeRF 的 训 
练 中 ， 生 成 了 具有 泛 化 性 的 模型 ， 提 高 了 NeRF 的 模 
型 表达 能 力 。 

基于 上 述 观察 ， 为 了 重建 一 个 具有 语义 编辑 功能 
的 可 泛 化 人 头 模型 ， 本 文 将 NeRF 应 用 到 人 体 头 部 的 
表示 上 ， 提 出 可 驱动 的 泛 化 人 头 神 经 辐射 场 模型 。 我 
们 的 模型 继承 了 NeRF 的 优点 ， 不 仅 可 以 生成 高 保 真 
的 人 头 图 像 ， 在 多 视角 一 致 性 方面 也 有 显著 表现 。 由 
于 NeRF 本 身 支 持 自由 变换 用 于 泻 染 的 相机 视角 ， 因 
此 我 们 的 模型 也 自然 地 支持 人 头 图 像 的 姿态 编辑 。 此 
外 ， 模 型 只 需要 二 维 图 像 作 为 输入 ， 因 为 泻 染 阶段 可 
微 ， 所 以 仍然 是 自 监督 训练 ， 不 需要 任何 额外 的 三 维 
几何 监督 信号 。 通 过 精心 设计 的 网 络 结构 以 及 损失 括 
数 , 结 合身 份 和 表情 特征 ,在 大 量 训练 数据 的 支撑 下 ， 
模型 的 泛 化 性 能 也 得 到 保证 。 具 体 来 说 ,我 们 收集 并 


图 像 ， 给 人 头 图 像 生成 质量 带 来 了 巨大 的 提升 。 但 
GAN 不 涉及 三 维 几 何 模 型 , 缺乏 语义 信息 , 导致 表情 


”属性 无 法 被 轻易 控制 。 因 此 一 些 工作 9 进一步 考虑 加 


和信 解 耦 约束 实现 用 户 自 定义 的 人 脸 图 像 泻 染 。 然 而 ， 
由 于 没有 显示 的 三 维 模型 约束 ， 这 些 生成 方法 在 不 同 
视角 下 呈现 的 深 染 结果 往往 不 具有 多 视角 一 致 性 。 

2020 年 Mildenhall 等 人 提出 用 神经 辐射 场 
( Neural Radiance Fields, NeRF ) 表示 三 维 场景 ,这 种 
表示 方法 可 以 合成 逼真 的 浑 染 图 像 ， 因 此 迅速 成 为 图 
像 生 成 领域 引 人 注 目的 研究 方法 ,一 大 批 基 于 神经 辐 
射 场 的 人 脸 / 人 头 图 像 生成 工作 应 运 而 生 。 一 些 学 者 也 
考虑 将 GAN 和 NeRF 结合 在 一 起 33 以 生成 高 保 真 的 
人 脸 图 像 ， 但 这 种 生成 模型 仍然 与 基础 的 GAN 模型 
有 同样 的 缺点 ,将 身份 .表情 和 外 观 全 部 耦合 在 一 起 ， 
无 法 进行 语义 编辑 。HeadNeRF04 提 出 利用 3DMM 解 
耦 不 同 的 语义 属性 建立 头 部 参数 化 模型 ， 通 过 海量 的 
高 清单 人 图 像 训 练 模型 的 泛 化 能 力 ， 生 成 了 可 语义 编 
辑 的 人 头 神 经 辐射 场 。 

NeRF 实际 上 是 对 三 维 几 何 场 景 的 一 种 隐 式 编码 ， 
可 以 看 成 是 一 个 带 有 纹理 的 网 格 ， 具 有 良好 的 多 视角 
一 致 性 ， 可 以 自然 的 进行 可 微 泻 染 ， 并 且 除 了 二 维 图 
像 外 不 需要 任何 额外 的 三 维 真实 数据 作为 标签 ， 通 过 
泻 染 结果 与 输入 图 像 之 间 的 误差 约束 ， 就 可 以 实现 端 
到 端的 自 监督 训练 过 程 。 但 是 NeRF 的 场景 优化 建立 


处 理 了 一 个 包含 多 人 的 单 目 动态 视频 数据 集 ， 通 过 拟 
合 3DMM 模型 (8 得 到 表情 系数 作为 特征 之 一 ， 利 用 
人 脸 识 别 网 络 提取 身份 特征 作为 特征 之 二 ， 将 这 两 个 
特征 作为 NeRF 的 额外 输入 优化 人 头 模型 的 表示 ， 通 
过 多 身份 多 表情 数据 的 多 轮训 练 后 ， 模 型 成 功 的 解 耦 
了 身份 和 表情 ， 实 现 了 可 驱动 功能 。 

进一步 地 ， 我 们 将 NeRF 的 体 演 染 与 二 维 神经 演 
染 相 结合 ， 在 模型 推理 阶段 将 泻 染 速 度 提 高 了 数 倍 ， 
在 Tesla V100 GPU 上 达到 15 帧 / 秒 。 与 GIRAFFE"! 
和 StyleNeREF00 类 似 ， 这 种 从 粗 到 细 〈 coarse-to-fine ) 
的 策略 在 不 牺牲 泻 染 质量 的 前 提 下 显著 加 快 了 泻 染 速 
度 。 得 益 于 良好 的 解 耦 表示 、 人 快速 的 推理 深 染 和 高 保 
真 的 生成 结果 ， 我 们 的 模型 可 以 有 各 种 应 用 ， 如 单 张 
人 脸 图 像 的 新 视角 合成 、 表 情 迁 移 、 姿 态 驱动 等 。 总 
的 来 说 ， 我 们 建立 的 是 一 个 基于 神经 辐射 场 的 可 驱动 
的 具有 泛 化 性 的 人 头 部 模型 。 


1 模型 的 建立 与 表示 

本 文 旨 在 建立 一 个 可 驱动 的 泛 化 人 头 模型 ， 该 模 
型 不 仅 可 以 通过 语义 编辑 实现 头 部 驱动 ， 而 且 在 新 的 
数据 集 上 也 具有 良好 的 拟 合 效果 。 为 实现 这 一 目的 ， 
本 文 将 神经 辐射 场 作为 新 的 三 维 代理 ， 代 替 传 统 的 人 
脸 参 数 化 模型 ， 并 结合 人 脸 识别 网 络 ， 提 出 了 一 个 
的 可 控制 身份 、 表 情 、 泻 染 视角 的 泛 化 模型 。 与 之 前 


基于 三 维 网 格 的 生成 方法 不 同 ， 采 用 NeRF 的 加 速 变 
体 作为 统一 的 三 维 代理 ， 可 以 直接 控制 泻 染 结果 的 相 
机 视角 ， 并 在 GPU 上 实现 高 保 真 可 驱动 的 人 头 图 像 。 
为 了 训练 模型 ， 我 们 收集 并 处 理 了 一 个 单 目 动态 视频 
数据 集 ， 包 含 多 身份 和 多 表情 ， 为 训练 提供 了 大 量 数 
据 ， 得 益 于 此 ， 该 模型 具有 一 定 的 泛 化 能 力 。 同 时 ， 
本 文 设计 了 合适 的 网 络 结构 和 损失 函数 ， 使 训练 后 的 
模型 能 够 控制 身份 和 表情 属性 ， 从 而 实现 台 真 的 驱动 
效果 。 
1.1 神经 辐射 场 与 人 脸 参 数 化 模型 的 回顾 
1.1.1 神经 辐射 场 

这 部 分 将 简单 回顾 NeRF 表示 中 。NeRF 将 场景 纺 
码 成 一 个 与 颜色 和 密度 相关 的 连续 体 素 辐 射 场 f ， 具 
体 来 说 , 对 于 一 个 三 维 空间 点 ac © 及 和 一 个 视角 方向 


© deR? , 在 经 过 位 置 编码 y(*) 作用 后 通过 函数 f 映射 
O 到 一 个 可 微 的 体 密度 c 和 一 个 RGB 颜色 c 。 


fy: (y(x), yd) — (o,e) (1.1) 
然后 ， 这 个 体 素 辐射 场 可 以 利用 下 面 的 公式 通过 
可 微 泻 染 生成 二 维 图 像 : 
Cr) =f THoWe(that (1.2) 


其 中 ，7(D) = exp(-f ocd) RIRIJRM tp 


到 1 的 累计 透明 度 , MARAM t, 到 1 不 撞击 任何 其 他 粒 
子 的 概率 。 假 设 目标 视角 的 相机 参数 为 了， 那么 一 条 
从 相机 中 心 射出 的 光线 可 以 将 其 表示 为 (1) = 0 +1d ， 
其 中 射线 原点 os RR 为 相机 中 心 ， 射 线 的 单位 方向 向 
量 为 4 e R”。(1.2) 式 中 的 积分 沿 着 射线 x 在 预先 设 定 
的 深度 边界 [6， tp | 内 计算 , 在 实际 实现 时 ,射线 取 
相机 中 心 到 图 像 上 每 个 像素 的 连 线 ， 该 积分 则 被 近似 
为 射线 上 每 个 采样 点 的 数值 积分 。 

对 于 相机 参数 为 了 的 目标 视图 , 由 相机 中 心 发 出 
的 一 条 射线 记 为 7 ， 在 这 条 射线 上 利用 (1.2) 式 泻 染 得 
到 的 像素 值 C(r) 可 以 与 真实 图 像 上 相应 的 像素 值 
C(r) 进行 比较 , 由 此 可 以 写 出 NeRF 的 泻 染 误差 如 下 
式 所 示 : 

Le 5 lw-coh a3 


reR(P) 
其 中 允 (P) 为 相机 参数 为 P 时 所 有 由 相机 中 心 发 

出 的 射线 形成 的 集合 。 
NeRF 表示 在 新 视角 合成 方面 的 工作 中 取得 了 非 
常理 想 的 效果 , 与 经 典 多 视角 立体 匹配 方法 一 样 避 2 ， 


它 是 一 种 基于 优化 的 方法 ， 唯 一 的 优化 信息 来 源 于 几 
何 一 致 性 。 而 不 同 场景 的 几何 信息 无 法 共享 20， 因 此 
它 必须 在 每 个 场景 下 单独 优化 ， 不 具有 良好 的 泛 化 性 
能 。 当 场景 不 同时 ， 训 练 模型 将 需要 耗费 很 多 时 间 。 
并 且 一 旦 视角 稀少 ， 无 法 利用 现实 世界 中 任何 先 验 知 
识 重建 出 物体 的 完整 形状 性 约 。 要 想 在 有 限 视 角 下 重 
建 出 具有 泛 化 性 能 的 NeRF 模型 ， 可 以 考虑 加 入 局 部 
特征 W571 增强 模型 的 泛 化 能 力 。 


1.1.2 人 脸 参 数 化 模型 


3D 形变 模型 08(3D Morphable model, 3DMM) 是 
使 用 最 为 广泛 的 一 类 三 维 人 脸 参数 化 模型 ， 它 将 空间 
中 三 维 人 脸 的 几何 和 反照 率 编码 到 低 维 子 空间 中 。 具 
体 来 说 ，3DMM 模型 用 主 成 分 分 析 法 (Principle 
Component Analysis，PCA) 描 述 了 三 维 人 脸 几 何 形状 
S 和 反照 率 b : 


(By 


S=S+aAig + BAcxy (1.4) 

b=b+dAqy (1.5) 
其 中 5 AD 分 别 表示 平均 人 脸 的 形状 和 反照 率 ， 
Aig» Aap 分 别 表示 从 一 组 具有 中 性 表情 的 带 纹理 的 三 
维 网 格 中 提取 的 主轴 ，4 表示 在 每 个 个 体 带 表情 的 
网 格 和 中 性 表情 网 格 之 间 的 偏 移 量 上 训练 的 主轴 ， 
a, BS 则 是 表征 特定 三 维和 人 脸 模 型 的 相应 系数 向 量 。 
为 了 多 样 性 和 互补 性 ， 本 文 使 用 Basel Face Model 
(BFEM)C 生成 三 维 人 脸 的 形状 和 反照 率 ， 用 
FaceWarehouseD 生 成 表情 基 ， 特 别 地 ， 本 文 使 用 的 所 
有 表情 系数 的 维度 为 46。 


1.2 模型 表示 

我 们 认为 头 部 图 像 的 几何 形状 主要 由 身份 和 表情 
相关 的 隐 编 码 控制 ,这 与 3DMM 的 底层 逻辑 是 一 致 的 。 
具体 地 说 ， 我 们 将 身份 和 表情 视 为 每 个 对 象 的 特征 信 
息 ， 并 以 此 作为 NeRF 的 额外 输入 ， 以 保证 模型 在 结 
构 上 具有 泛 化 性 。 为 了 表征 表情 属性 , 将 拟 合 3DMM 
模型 得 到 的 表情 系数 作为 表情 隐 编 码 ， 记 为 B 。 考 虑 
到 身份 信息 是 每 个 人 独一无二 的 ， 不 会 随 着 表情 或 光 
照 等 其 他 情况 的 改变 而 变化 ， 这 与 人 脸 识别 的 目的 不 
谋 而 合 ， 因 此 本 文 的 身份 隐 编 码 考虑 使 用 人 脸 识 别 网 
络 提取 的 相关 特征 信息 ， 为 此 我 们 找到 了 目前 开源 的 
准确 度 最 高 的 人 脸 识别 网 络 AdaFace29， 用 其 提供 的 
预 训练 模型 从 人 头 图 像 中 提取 人 脸 特征 作为 身份 隐 编 
码 , 记 为 ziy 。 通 过 加 入 表情 编码 和 身份 编码 作为 条 件 
输入 ， 可 将 (1.1) 式 中 基于 MLP 的 隐 式 函数 fo 改写 成 


i 
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下 式 ， 以 建立 本 文 提出 的 模型 : 
fy : (Yx), yd), B 2a) > (0.F) (1.6) 
其 中 9 表示 网 络 可 优化 的 参数 ，f6 表示 的 网 络 结 
构 以 及 完整 模型 的 整体 框架 如 图 1 所 示 。 这 里 YG9 为 
预 完 定义 的 位 置 编 码 函 数 ， 与 NeRF 原文 中 所 使 用 的 
位 置 编码 设置 相同 。 


Fig.1 Network Framework 
在 图 1, xe R? 是 射线 上 的 一 个 三 维 采样 点 。 


与 之 前 的 工作 0 号 类似, 我们 并 不 直接 预测 采样 点 x 
的 RGB ,而 是 预测 一 个 高 维 的 特征 向 量 F(x)e R51?， 


用 体 泻 染 结 合 神经 演 染 的 方式 代替 单一 的 体 演 染 模块 。 


在 这 里 之 所 以 不 采用 传统 NeRF 的 方式 预测 三 通道 颜 
色 值 ， 是 因为 这 种 方式 在 后 续 体 演 染 阶段 需要 对 每 个 
采样 点 的 颜色 值 计算 数值 积分 ， 而 为 了 能 够 泻 染 出 质 


量 较 高 的 图 像 则 需要 在 射线 上 采样 大 量 的 三 维 空间 点 ， 


这 将 在 体 泻 染 阶 段 消 耗 大 量 的 计算 资源 和 时 间 。 如 果 
预测 特征 向 量 的 话 ， 就 可 以 在 体 泻 染 阶段 首先 将 场景 
泻 染 到 一 个 较 低 分 辨 率 的 特征 图 ， 再 经 过 神经 演 染 器 
处 理 特征 图 并 输出 最 终 的 RGB 图 像 ,这 种 方式 可 以 对 
算法 进行 加 速 并 且 节 省 计算 资源 。 具 体 来 说 ， 我 们 将 
位 置 编码 函数 作用 在 采样 点 上 得 到 Y(x) 后 ,与 身份 
隐 编 码 ziz 以 及 表情 隐 编 码 B 拼接 在 一 起 后 作为 整个 
网 络 的 输入 ， 通 过 者 干 层 MLP 输出 体 密度 c 和 中 间 
特征 ， 然 后 再 将 中 间 特 征 和 经 过 位 置 编码 函数 作用 后 
的 视角 方向 Y(d) 拼接 后 再 次 通过 MLP ,进一步 预测 特 
征 向 量 F(x) 。 这 样 的 网 络 结构 使 得 密度 场 的 预测 只 
与 身份 和 表情 隐 编 码 相 关 ， 而 不 受 视角 方向 的 影响 ， 
视角 方向 的 变化 只 会 影响 特征 预测 的 结果 ， 进 而 影响 
泻 染 图 像 的 像素 RGB 数值 .这 与 现实 世界 所 呈现 的 物 
理 原理 是 一 致 的 ， 密 度 场 表 示 的 是 物体 与 场景 的 几何 
信息 ， 并 不 会 随 着 观察 方向 的 改变 发 生变 化 ， 而 在 不 
同 视角 下 看 到 的 彩色 成 像 结果 应 该 因为 光线 等 因素 略 
有 不 同 。 


根据 以 上 描述 ， 本 文 所 建立 模型 的 体 演 染 阶段 会 
得 到 一 个 低 分 辩 率 的 特征 图 Ip eR? | ae 
NeRF 中 体 演 染 公 式 ， 可 以 写 出 本 模型 中 体 演 染 阶段 
的 公式 : 


Ip(r)= 网 w(t): F (r(t))dt (1.7) 


H w(t) = oh os)ds] -o(r(t)), r(t) K 
示 从 相机 中 心 打 出 的 光线 。 要 生成 最 后 的 彩色 图 像 ， 
还 需要 一 个 神经 演 染 器 来 处 理 (1.7) 式 中 的 特征 图 Ip o 
将 这 个 神经 演 染 器 记 为 re ,6 代表 该 模块 所 有 可 学 习 
的 网 络 参数 ， 它 的 具体 结构 如 图 2 所 示 。 


Ae 
byte tet 


O Etita | Leaky ReLU 
3x 3Comv2D: (D,5 9 (D259 EED 3x3Com2D : (D, 90,3.) 


图 2 神经 演 染 器 结构 


Fig.2 the Structure of Neural Renderer 


与 HeadNeRFW4 类 似 ， 这 个 神经 演 染 融 主 要 由 3 
个 基本 单元 组 成 ， 每 个 基本 单元 均 由 上 采样 操作 、 卷 
积 核 尺寸 为 3x3 的 二 维 卷 积 以 及 Leaky ReLU 激活 函 
数 层 构成 ， 通 过 递归 进行 上 采样 操作 ， 实 现 高 效 高 分 
辩 率 的 图 像 合成 。 特 征 图 每 经 过 一 个 基本 单元 都 会 得 
到 一 个 分 辨 率 更 高 的 特征 图 ， 只 要 适当 的 组 合 这 些 特 
征 图 就 可 以 生成 所 需要 的 彩色 图 像 。 这 里 我 们 借鉴 了 
Niemeyer 等 人 在 GIRAEFFE00 中 使 用 的 组 合 方式 ， 用 
3x3 的 二 维 卷 积 核 将 每 一 个 基本 单元 作用 后 的 特征 
图 映射 到 当前 分 辨 率 下 的 RGB 图 像 ,并 通过 双 线 性 上 
采样 算 子 将 前 一 个 卷 积 操作 输出 的 RGB 图 像 也 采样 
到 当前 分 辨 率 下 ,然后 将 两 个 分 辨 率 相 同 的 RGB 图 像 
逐 像素 相 加 ， 和 迭代 生成 目标 分 辨 率 下 的 RGB 图 像 。 


1.3 损失 函数 

在 训练 阶段 , 当 给 定 输入 的 RGB 图 像 时 , 经 过 数 
据 处 理 可 以 获得 其 对 应 的 表情 隐 编 码 、 身 份 隐 编 码 ， 
以 及 对 应 的 的 相机 参数 。 通 过 1.2 节 的 分 析 可 知 ， 相 
比 传统 的 NeRF， 本 文 所 提出 模型 的 额外 输入 只 有 表 
情 隐 编码 和 身份 隐 编 码 ， 无 需 引 入 其 他 信息 如 三 维 几 
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何等 作为 监督 信号 ,因此 我 们 的 模型 仍然 继承 了 NeRF 
的 性 质 ， 是 一 个 端 到 端的 自 监督 神经 网 络 。 需 要 注意 
的 是 ， 除 了 体 泻 染 模 块 的 网 络 参 数 之 外 ， 神 经 演 染 模 
块 的 网 络 参数 也 需要 在 训练 阶段 得 到 更 新 ， 所 有 可 学 
习 的 网 络 参数 在 训练 阶段 是 共享 的 。 为 了 更 好 地 训练 
模型 ,损失 函数 由 以 下 两 项 构成 : 

光度 损失 与 (1.3) 式 相同 , 在 训练 阶段 , 对 每 一 张 
输入 图 像 ， 都 需要 计算 演 染 误差 以 优化 网 络 参数 。 具 
体 来 说 ， 通 过 模型 生成 的 泻 染 图 像 的 人 头 部 分 应 该 与 
相应 的 真实 图 像 的 人 头 部 分 尽 可 能 相同 ， 可 以 用 公式 
表达 如 下 : 

4 =|M, © Lrender B, Zia P) —Terl, (1.8) 

EP Lender (B. Zia P) 表示 在 表情 隐 编 码 为 p 、 
身份 隐 编 码 为 zia 、 相 机 参数 为 了 时 的 模型 演 染 图 像 ， 
1 为 图 像 上 人 头 区 域 的 掩 码 ， 结 合 哈 德 马 积 符号 四 
可 以 将 感 兴趣 的 区 域 限定 在 人 头 部 分 并 只 在 此 区 域内 
计算 光度 损失 。 

感知 损失 如 果 将 图 像 生成 任务 视 为 图 像 转换 问 
题 ， 也 就 是 将 输入 图 像 转换 为 输出 图 像 ， 模 型 在 训练 
过 程 中 提取 了 一 些 高 级 特征 ， 那 么 为 了 生成 高 质量 的 
图 像 ， 需 要 定义 感知 损失 中 7 如 下 : 

L = > ©; render (B. Zia »P)) -©;(Igr)| (1.9) 


其 中 @,(*) 表示 VGG168! Wi HSS i ES ARB PK 
数 。 


最 终 的 损失 函数 由 光度 损失 和 感知 损失 加 权 得 到 ， 


如 下 式 所 示 : 
L=L +A, (1.10) 


4 为 感知 损失 项 L 的 权重 系数 。 


(a) 多 身份 展示 


(b) 多 表情 展示 
图 3 数据 集 


Fig.3 Dataset 


1.4 数据 集 和 数据 处 理 

为 了 更 好 地 训练 模型 ， 我 们 收集 并 整理 了 一 个 单 
目 动态 视频 数据 集 。 具 体 来 说 ,我 们 采用 iPhone X F 
机 拍摄 了 570 个 不 同 身份 的 RGB 视频 数据 ,拍摄 对 象 
人 种 为 中 国人 ， 在 性 别 、 着 装 、 发 型 上 均 有 不 同 ， 每 
段 视频 中 被 拍摄 对 象 的 头 部 转动 角度 、 面 部 表情 都 较 
为 丰富 。 需 要 特别 说 明 的 是 ,我们 的 数据 中 有 很 多 戴 
眼镜 的 身份 ， 后 续 模 型 对 眼镜 的 拟 合 能 力 正 是 依赖 于 
此 。 部 分 数据 展示 在 图 3 中 。 其 中 540 个 身份 将 会 用 
于 训练 , 余下 30 个 身份 则 不 会 在 训练 时 出 现 , 以 此 作 
为 测试 集 评估 模型 在 新 身份 上 的 泛 化 能 力 。 

为 了 适应 模型 训练 ， 首 先 我 们 使 用 现 有 的 基于 网 
格 的 跟踪 方法 2 来 追踪 每 个 视频 中 的 面部 位 置 ， 并 通 
过 拟 合 3DMM 模型 08 得 到 每 一 帧 的 表情 系数 和 头 部 
姿态 参数 。 与 HeadNeRF04 相 同 ， 我 们 将 头 部 姿态 参 
数 作为 相应 帧 的 相机 外 参 ， 这 种 操作 隐 含 地 将 每 帧 的 
底层 几何 结构 对 应 到 相同 的 空间 位 置 ， 减 小 了 相机 参 
数 误差 对 泻 染 结果 造成 的 影响 。 其 次 需要 获得 身份 隐 
编码 ， 目 前 开源 的 准确 度 最 高 的 人 脸 识 别 算法 
AdaFace29 提 供 了 在 海量 不 同 身份 数据 集 下 训练 过 的 
预 训练 模型 ， 我 们 将 该 预 训练 模型 从 视频 每 帧 图 像 中 
提取 的 人 脸 特 征 信息 作为 身份 隐 编 码 。 最 后 ， 通 过 现 
有 的 分 割 算法 Bo 生成 每 一 帧 的 头 部 掩 码 ， 以 保证 损失 
函数 只 在 头 部 区 域 计 算 。 图 4 展示 了 在 单个 身份 上 的 
数据 处 理 结果 ， 其 中 头 部 分 割 结 果 由 头 部 掩 码 作用 于 
RGB 图 像 上 得 到 。 特 别 地 ， 从 参数 化 模型 的 拟 合 结果 
来 看 ， 数 据 处 理 阶 段 得 到 的 表情 系数 较为 准确 的 表达 
了 原始 RGB 图 像 的 表情 信息 ,这 对 模型 是 否 能 精确 驱 
动 来 说 非常 重要 。 


RGB 图 片 


头 部 分 割 结果 


图 4 数据 处 理 结果 


Fig.4 Dataset Processing Results 


参数 化 模型 
拟 合 结果 
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经 过 上 述 数据 处 理 步 又 后 ， 我 们 得 到 了 由 540 个 
不 同 身 份 的 129552 张 人 头 图 像 组 成 的 训练 集 , 这 些 数 
据 被 全 部 打 乱 按照 随机 顺序 用 于 模型 训练 。 多 身份 、 
多 表情 的 数据 集 为 模型 的 拟 合 能 力 和 泛 化 能 力 提供 了 
夯实 的 基础 。 


2 实验 结果 
2.1 实现 细节 

我 们 采用 PyTorch 深度 学 习 框 架 B1 实 现 本 文 建立 
的 泛 化 人 头 模型 ， 使 用 Adam 优化 器 G2 更 新 可 学 习 的 
网 络 参 数 。 身 份 隐 编码 和 表情 隐 编 码 的 维度 分 别 为 
za ER ，Be 民 %* ，(1.10) 式 中 感知 损失 项 的 权重 
系数 4=10 。 文 中 展示 的 实验 结果 均 为 batch size 设置 
为 4 时 在 2 个 Testa-V100 GPU 上 训练 20 轮 的 结 
一 轮训 练 有 129552 张 图 片 , 20 轮训 练 总 共 耗 时 70 个 
小 时 。 


2. 2 模型 评估 
2.2.1 解 看 控制 


在 本 部 分 ， 我 们 测试 了 模型 对 泻 染 结果 的 各 种 语 
义 属性 的 独立 控制 能 力 。 如 图 5 所 示 ， 对 于 给 定 的 表 
情 隐 编码 和 身份 隐 编 码 (B,zig ) ,我 们 可 以 直接 调整 相 
机 参数 ， 以 连续 更 改 演 染 视图 的 相机 位 置 。 特 别 地 ， 
眼镜 在 不 同 相 机 位 置 下 仍然 保持 了 完整 且 合 理 的 形状 。 
这 些 新 视角 合成 的 泻 染 结果 表明 我 们 的 模型 具有 良好 
的 多 视角 一 致 性 ， 尽 管 没 有 采用 传统 NeRF 的 体 渔 染 
方式 ,结合 二 维 神经 演 染 的 演 染 模式 仍然 有 效 地 保留 
了 原始 NeRF 通过 位 置 隐 式 编码 的 几何 结构 。 
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图 5 新 视角 合成 
Fig.5 Novel View Synthesis 


更 进一步 地 ， 我 们 可 以 利用 训练 好 的 模型 实现 语 
义 控 制 ， 独 立 编辑 身份 和 表情 属性 。 即 当 身 份 或 者 表 
情 两 者 中 任意 一 个 属性 给 定时 ， 都 可 以 在 给 定 属 性 不 
变 的 情况 下 实现 男 一 属性 的 平滑 变化 。 具 体 地 说 ， 当 


需要 编辑 身份 时 ， 我 们 在 训练 集中 随机 采样 两 个 不 同 
身份 的 样本 ， 将 其 中 一 个 视 为 原 身 份 ， 男 一 个 视 为 目 
标 身 份 ， 然 后 在 原 身 份 和 目标 吴 份 的 隐 编 码 间 进行 线 
性 插值 得 到 知 干 个 新 的 身份 隐 编 码 ， 并 分 别 与 原 身 份 
的 表情 编码 一 同 重新 演 染 人 头 图 像 ， 即 可 得 到 身份 编 
辑 的 泻 染 结果 。 同 样 地 ， 当 需要 编辑 表情 时 ， 在 训练 
集中 随机 采样 相同 身份 的 两 个 不 同 表情 的 样本 ， 再 对 
原 表情 和 目标 表情 进行 线性 插值 并 经 过 重新 泻 染 得 到 
同一 身份 新 表情 下 的 合成 图 像 。 如 图 6 所 示 ， 这 种 控 
制 变量 的 插值 结果 表明 ， 我 们 的 模型 能 在 编辑 特定 属 
性 的 同时 维持 其 他 属性 不 变 ， 有 效 的 解 耦 了 身份 和 表 
情 的 语义 信息 。 
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图 6 语义 解 耦 结果 


Fig.6 Semantic Disentanglement Results 


2.2.2 消融 实验 

感知 损失 消融 实验 这 个 部 分 我 们 测试 感知 损失 
项 对 模型 演 染 结果 的 影响 。 对 于 无 感知 损失 项 的 模型 ， 
它 与 第 1 节 建 立 的 完整 模型 采用 同样 的 训练 策略 与 训 
练 时 长 ， 唯 一 的 区 别 在 于 将 感知 损失 项 在 损失 函数 中 
的 权重 系数 设置 为 4=0 。 正 如 图 7 Pras, 感知 损失 


项 显著 提高 了 泻 染 图 像 的 质量 ， 对 细节 的 展现 尤为 重 
要 。 这 里 我 们 特别 指出 ， 在 图 7 中 ， 保 留 感知 损失 除 
了 提高 眼睛 部 分 的 生成 质量 外 ， 人 脸 上 的 疙 和 眉毛 的 
毛 流感 也 被 很 好 的 泻 染 出 来 。 


有 感知 损失 


无 感知 损失 


图 7 感知 损失 消融 实验 


Fig.7 Ablation Study on the Perceptual Loss 


身份 编码 消融 实验 为 了 测试 由 不 同方 式 编码 的 身份 
信息 对 实验 结果 的 影响 ， 我 们 对 此 进行 了 消融 实验 。 
这 里 我 们 采用 两 种 方式 获取 身份 编码 ， 一 种 是 模型 中 


eg 
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所 使 用 的 ， 将 人 脸 识 别 网 络 提取 的 身份 特征 作为 身份 
隐 编 码 ; 另 一 种 则 是 通过 (1.4) 式 拟 合 人 脸 参 数 化 模型 
得 到 身份 系数 ,将 其 作为 身份 隐 编码 ,维度 为 we RO 。 
两 种 不 同 的 身份 隐 编 码 除 了 维度 不 同 导致 网 络 输入 的 
维度 不 同 外 ， 其 他 实验 设置 全 部 相同 。 从 图 8 可 以 看 
出 ， 参 数 化 模型 的 身份 系数 与 人 脸 识别 网 络 提取 的 身 
份 特征 相 比 ， 在 视觉 上 明显 与 真实 图 像 的 身份 差距 更 
大 ,并 且 了 眼睛 部 分 的 泻 染 细节 也 更 少 。 为 了 更 加 严谨 
地 说 明 这 一 问题 ， 我 们 用 多 个 评价 指标 定量 评估 了 图 
8 中 展示 的 4 个 身份 在 不 同 身份 编码 下 的 泻 染 结 
数据 如 表 1 所 示 。 这 里 的 评价 指标 五 PSNR, SSIM 
分 别 表 示 真 实 图 像 与 泻 染 图 像 在 头 部 掩 码 区 域内 的 平 
均 万 范 数 距 离 .峰值 信 噪 比 ( Peak Signal to Noise Ratio, 
PSNR ) 以 及 结构 相似 性 ( Structural Similarity, SSIM ), 
表 1 中 更 优 的 结果 已 加 粗 显示 。 


表 1 不 同 身份 隐 编 码 泻 染 结果 的 定量 比较 


Table 1 Quantitative Comparison on Different Identity Codes 


身份 隐 编 码 方式 nv PSNR 个 SSIM 个 
3DMM 身份 系数 编码 0.077 16.9 0.952 
人 脸 识别 网 络 特征 编码 0.073 17.2 0.955 


在 这 一 消融 实验 中 ， 视 觉 与 数值 上 的 比较 结果 都 
强 有 力 地 证 明了 在 建立 模型 时 采用 人 脸 识 别 网 络 提取 
的 特征 作为 身份 隐 编 码 的 正确 性 与 必要 性 。 
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图 8 身份 编码 消融 实验 
Fig.8 Ablation Study on the Identity Code 


2.3 对 比 实验 
这 一 小 节 将 评估 本 文 所 建立 模型 的 泛 化 能 力 ， 即 


对 于 训练 集 从 未 出 现 的 新 的 身份 ， 模 型 是 否 仍 具有 可 
观 的 拟 合 能 力 。 为 了 有 所 对 比 ， 我 们 采用 同类 型 的 基 
于 神经 辐射 场 的 参数 化 人 头 方法 HeadNeRF04 作 为 比 
较 。 

前 面 1.4 小 节 提 到 , 所 拍摄 的 数据 中 有 30 个 身份 
未 参加 模型 训练 ， 可 以 用 于 此 处 作为 测试 集 。 需 要 注 
意 的 是 ,HeadNeRF 的 训练 集 为 FaceSEIP .FaceScape!*?! 
和 FFHQB， 这 三 个 数据 集 均 由 外 国人 构成 ， 而 我 们 
在 训练 模型 时 用 到 的 数据 都 为 中 国人 。 由 于 肤色 导致 
的 面部 纹理 差异 ， 不 同人 种 的 训练 集会 造成 模型 的 泻 
染 效 果 有 所 不 同 。 为 了 公平 起 见 ， 我 们 在 网 上 搜集 了 
30 个 不 同 身份 的 国外 新 闻 播 报 视频 作为 补充 测试 集 。 
这 样 测试 集 由 60 个 不 同 身份 构成 ， 其 中 30 个 为 中 国 
A, 30 个 为 外 国人 。 将 这 60 个 视频 按照 1.4 节 介 绍 的 
数据 处 理 方法 构建 我 们 方法 的 测试 集 ， 按 照 
HeadNeRF 提供 的 数据 处 理 代码 构建 对 方 实验 需要 的 
测试 集 。 测 试 HeadNeRF 拟 合 能 力 的 代码 是 由 作者 提 
供 的 开源 代码 。 
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图 9 泛 化 能 力 定性 比较 结果 


Fig.9 Qualitative Comparison Results for Generalization 
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图 9 展示 了 我 们 的 方法 与 HeadNeRF 的 定性 比较 
结果 。 从 图 中 可 以 看 出 ， 对 于 女性 的 长 发 ， 我 们 的 方 
法 有 更 好 的 拟 合 结果 。 此 外 , 当 人 脸 偏 转角 度 较 大 时 ， 
我 们 的 方法 在 恢复 偏转 角度 的 同时 仍然 很 好 的 保留 了 
身份 信息 。 更 重要 的 是 ， 正 如 HeadNeRF 在 其 文章 中 
提 到 的 ， 他 们 的 训练 集 不 曾 涵盖 头 部 配件 如 发 卡 、 眼 
镜 等 ， 因 此 对 于 配 戴 眼 镜 的 拟 合 对 象 ，HeadNeRF 无 


表 2 泛 化 能 力 定量 比较 结果 


Table 2 Quantitative Comparison Results for Generalization 


PSNR 个 


中 国人 测试 集 
Ll  PSNRÎ ssMî Lv 
HeadNeRF 0.149 14.0 0.919 0.071 
Ours 0.049 23.0 0.950 0.063 


外 国人 测试 集 全 部 测试 集 
SSIM 个 Lv PSNR 个 SSIM 个 
19.6 0.930 0.110 16.8 0.925 
20.8 0.927 0.056 21.9 0.939 
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图 10 驱动 结果 
Fig.10 Driven Results 


法 泻 染 出 眼镜 。 而 我 们 的 方法 得 益 于 训练 集中 有 很 多 
配 戴 眼镜 的 身份 ， 演 染 结 果 很 好 的 恢复 了 眼镜 形状 。 

表 2 41h TAAL, wae. PSNR, SSIM 三 种 不 同 指 
标 评估 两 种 方法 在 测试 集 上 拟 合 能 力 的 数值 ， 这 里 同 
样 计算 的 是 泻 染 结果 与 真实 图 像 在 头 部 掩 码 区 域 的 误 
差 。 这 些 数值 结果 印证 了 前 文 提 到 的 训练 集 人 种 不 同 
的 问题 ， 我 们 的 方法 在 中 国人 的 测试 集 上 各 项 指标 明 
显 优 于 外 国人 测试 集 ，HeadNeRF 则 正好 相反 。 尽 管 
如 此 ， 本 文 提出 的 方法 在 外 国人 测试 集 上 的 数值 结果 
也 大 都 优 于 HeadNeRF， 在 结构 相似 性 指标 SSIM 上 
虽然 略 低 于 HeadNeRF 但 相差 其 少 ， 可 以 说 达到 了 相 
当 的 水 平 。 定 量 比较 的 结果 表明 我 们 的 模型 具有 更 好 
的 泛 化 能 力 。 


2. 4 驱动 应 用 

因为 我 们 建立 的 模型 具有 很 强 的 表示 能 力 ， 可 以 
解 耦 泻 染 结果 的 各 种 属性 ， 所 以 它 有 多 种 用 途 ， 比 如 
新 视角 合成 、 表 情 迁 移 等 。 这 一 节 将 展示 本 模型 的 驱 
动 功 能 ， 也 就 是 将 参考 视频 中 人 物 的 头 部 动作 与 表情 
在 目标 人 物 图 像 的 面部 重 现 。 为 此 ， 我 们 需要 从 参考 
视频 中 获取 头 部 姿态 和 表情 隐 编 码 ， 与 目标 对 象 的 号 
份 隐 编码 结合 ， 使 用 训练 好 的 头 部 模型 生成 期 望 的 面 
部 图 像 序列 ， 再 按照 对 应 的 时 间 顺 序 形成 视频 ， 就 实 
现 了 一 个 完整 的 驱动 流程 ,图 10 中 展现 了 部 分 帧 数 的 
驱动 结果 。 值 得 注意 的 是 ， 在 模型 训练 阶段 参考 视频 
的 表情 域 和 姿态 域 并 非 与 被 驱动 对 象 的 表情 域 和 姿态 
域 完 全 相同 ， 因 此 这 里 逼真 的 驱动 结果 表明 模型 在 表 
情 和 姿态 上 也 具有 很 好 的 泛 化 性 能 。 


2.5 未 来 工作 

虽然 我 们 的 方法 建立 了 一 个 可 解 耦 的 高 质量 头 部 
泛 化 模型 ,但 仍然 存在 一 定 问题 。 如 图 11 所 示 , 部 分 
泻 染 结果 的 眼球 部 分 会 出 现 眼 黑 占 比 远大 于 眼 白 的 现 


象 ， 导 致 演 染 图 像 的 眼睛 不 够 自然 。 这 是 因为 我 们 所 
采用 的 训练 集 是 视频 数据 ， 而 在 视频 采集 过 程 中 拍摄 
对 象 的 眼珠 并 未 全 程 项 着 相机 不 动 ， 数 据 处 理 过 程 眼 
珠 的 转动 与 人 脸 姿 态 就 会 看 合 在 一 起 ， 造 成 模型 无 法 
完全 学 习 到 眼珠 的 位 置 变化 。 未 来 可 以 考虑 加 入 眼球 
追踪 系数 或 者 视线 方向 等 信息 进一步 缓解 这 一 问题 ， 


提高 眼球 部 分 的 泻 染 细节 ， 甚 至 可 以 做 到 眼神 注视 方 
向 的 编辑 。 


图 11 模型 拟 合 缺点 


Fig.11 Limitation of Fitting 


3 结束 语 

本 文 建立 了 一 个 基于 NeRF 的 参数 化 头 部 模型 ， 
它 将 神经 辐射 场 集成 到 人 脸 参数 化 模型 上 ， 并 结合 人 
脸 识 别 网 络 实现 了 可 泛 化 的 头 部 建 模 。 得 益 于 精心 设 
计 的 网 络 结构 和 损失 函数 ,本 模型 可 以 在 现代 GPU 上 
快速 演 染 高 保 真 头 部 图 像 ， 并 是 支持 更 改 泻 染 视角 ， 
可 以 独立 编辑 生成 图 像 的 身份 和 表情 。 实 验 结 果 表 明 ， 
我 们 建立 的 可 泛 化 人 头 模型 优 于 目前 的 相关 方法 ， 相 
信 在 不 和 久 的 将 来 也 会 为 数字 人 的 发 展 添砖加瓦 。 
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